阅读更多
引用
原文:MIT’s New AI Can (Sort of) Fool Humans With Sound Effects
译者:刘翔宇 审校:刘帝伟
责编:周建丁(zhoujd@csdn.net)




神经网络已经在玩游戏方面超过了我们,并且也应用于智能手机照片的管理以及邮件回复方面。此外,它们还能在好莱坞谋得一职。

MIT的计算机科学和人工智能实验室(CSAIL),一个由6位研究人员组成的小组创建了一套机器学习系统,它可以将声音效果与视频剪辑匹配。别高兴得太早,CSAIL的算法还不能在任何旧的视频上工作,而且它产生的声音效果也是有限的。对于该项目,CSAIL的博士生Andrew Owens和研究生Phillip Isola将他们用鼓槌重击一堆东西录制成视频,包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶,还有肮脏的地面。

该小组将最初的1000个批量视频输入到它的AI算法中。通过分析视频中物体的物理外观,鼓槌的每次运动轨迹,还有最终的声音,计算机能够学习到物理物体和它被击中所发声音之间的联系。然后,通过“观看”物体被鼓槌重击,轻敲和刮蹭时的不同视频,这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频:https://youtu.be/0FW99AQmMc8

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外,声音效果也不是基于视觉匹配来选择;你可以在上面视频中1:20处看到,该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果,在灌木从彻底被鼓槌敲击时直接给出声音效果。

Owens说,研究小组使用 卷积神经网络来分析视频帧,递归神经网络来选择对应的音频。



它们的学习过程主要来自于Caffe深度学习框架,该项目也由美国国家科学基金会(National Science Foundation and Shell)资助。小组的一名成员在谷歌研究院工作,Owens则是微软研究奖学金计划的一员。

Owens说,“我们几乎已经把现有的深度学习技术运用到了新领域,我们的目标不是开发新的深度学习方法。”

听音辨物
为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导,他们记录你在一部好莱坞电影中看到(和听到)的脚步声、门的嘎吱声、腾空横踢。

一位出色的音效师可以将声音精确匹配给视频,让观众误以为这声音是实际捕捉到的。

MIT的机器人还没有这么娴熟。该研究小组进行了一项在线调查,为4000名参与者展示了同一视频配上原始音频和算法生成的声音版本,然后让他们选择哪个视频里的声音是真实的。有22%的人选择了假音频——还远不完美,但效果仍是之前版本算法的两倍。

根据Owens所述,那些测试结果是一个好兆头,预示着计算机视觉算法可以检测物体的组成,以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过,还是有些物体系统不能正确处理。有些时候,系统会认为鼓槌在撞击某一物体,但实际上并没有,比起对更坚实物体产生的声音效果,更多的人更容易被对落叶和灰尘产生的声音效果愚弄。

这个项目不仅仅是为了产生有趣的声音效果,它背后还有更深层的原因。Owens认为,如果该系统已经非常完善,那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens说,“我们希望这些算法通过观察这些物理相互作用以及响应来学习,你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。”
  • 大小: 44.6 KB
  • 大小: 116.8 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 深度学习算法知识

    一、神经网络+卷积神经网络(一)神经网络(Neural ...利用单一算法学习各种决策边界,调节中间层数量以及层的深度,神经网络可学习更复杂的边界特征,而得出更加准确的结果⚠️可以用于回归,但主要应用于分类问题。

  • 人工智能趋势与深度学习算法

    人工智能趋势与深度学习算法 1 前沿技术 1.1 Transformer模型: 1.2 BERT模型:基于Transformer Encoder构建的预测模型 1.3 自监督学习(Self-supervised Learning) 1.4 类脑计算(Brain-Inspired Computing) 1.5 AI大...

  • 基于深度学习的配准框架

    M和F的意义: 点击,仅适用于初学者理解 本文重点关注基于深度学习的图像配准框架,根据深度学习的类型分类监督学习和无监督学习。 基于监督学习的配准框架 上面是二维的例子:将两幅图像对应坐标点进行分块,将...

  • 基于深度学习的图像分割综述

    综述:基于深度学习的图像分割传统的图像分割算法基于深度学习的图像分割算法全卷积神经网络(FCN)基于图模型的卷积模型编码-解码模型基于多尺度和金字塔的网络模型基于R-CNN的模型扩展卷积模型和DeepLab族基于循环...

  • 论文总结:基于深度学习的图像风格迁移研究

    目录基于深度学习的图像风格迁移研究深度学习图像风格迁移合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片 基于深度学习的图像风格迁移研究 深度学习 图像风格迁移 合理...

  • 基于深度学习的超分辨率重建

    超分辨率技术(Super-Resolution)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在...基于深度学习的SR,主要是基于单张低分辨率的重建方法,即Single Image Super-Resolution (SISR)。 SISR是一个逆问...

  • 深度学习下的图像分割

    深度学习下的图像分割技术汇总

  • 华南理工深度学习与神经网络期末考试_深度学习算法地图

    其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。书的购买链接书的勘误,优化,源代码资源PDF全文链接:深度学习算法地图自...

  • 基于深度学习的GAN应用风格迁移

    我们可以这样定义:“对抗生成网络(GAN)是一种深度学习模型,模型通过框架中至少两个框架:生成模型和判别模型的互相博弈以学习产生好的输出。” 当然这么说略显抽象,我们不如来看一个有趣的例子: 当爱德华·蒙克...

  • 2021年,我们还需要入门深度学习吗?

    火热到显卡一度卖脱销(不是因为挖矿),研究生导师集体推荐学生转深度学习方向、毕业论文不带“深度学习”四个字都毕不了业、大街上随便拉个学生问都认识吴恩达。 就这个火的程度,我那会也毅然决然地踏入了深度学习...

  • 《深度学习入门:基于Python的理论与实现》读书笔记:第8章 深度学习

    8.2 深度学习的小历史 8.2.1 ImageNet ​8.2.2 VGG 8.2.3 GoogleNet 8.2.4 ResNet 8.3 深度学习的高速化 8.3.1 需要努力解决的问题 8.3.2 基于GPU的高速化 8.3.3 分布式学习 8.3.4 运算精度的位数缩减 8.4...

  • 深度学习领域,最惊艳的论文!

    转自 |机器学习算法与Python实战仅作学术分享,不代表本公众号立场,侵权联系删除科研路上我们往往会读到让自己觉得想法很惊艳的论文,心中对不同的论文也会有一个排名,以下介绍了一些知乎作...

  • 【项目实战全解】基于深度学习与自然语言处理的AI文本生成(自动写作)

    文章目录一、项目演示:1:诗歌创作2:律诗与绝句3:小说篇4:自己的...技术改变生活,从高中就听闻自动写文章技术,没曾想,竟然已经做到以假乱真的地步! 今天来详解一下我接触过的文本,文本生成,机器问答,阅读理

  • Python零基础30天速通(小白定制版)(完结)

    宣导片:开启Python进阶之路 30动漫番剧播放量影响因素分析1综合案例 29小红书卖货实力与用户分析1综合案例 28星巴克门店探索|Matplotlib实战 27詹姆斯哈登的制胜宝典1 Panads的使用 26一晚5万的酒店| Numpy的使用 25揭开数据分析的面纱1数据分析"三剑客"概述 24虎牙直播数据告诉你谁最火1案例篇 23我的音乐我做主1数据保存之csv和excel 22电竟| BeautifulSoup解析HTML 21对李焕英的评价1HTML基础 20我的美食我做主1爬虫介绍、requests请 19看我四十二变1内容提取和格式转换 18我的版权我做主1PDF就是这么帅 17婚礼策划师离不开你|亲爱的PPT 16运营部的烦恼1战胜Excel 15Up主的创作之路1 Python与word初次 14你的offer之选|邮件发送 13我的存在只为悦你1 Pillow图片处理 12你喜欢的电竟赛事大全1 Python的文件操作 11哈利波特的魔法棒|模块 10龙珠之赛亚人1面向对象基础 09大吉大利今晚吃鸡1特种兵的战场(项目案

  • 20240519基本完整

    20240519基本完整

  • MATLAB仿真项目-大数据源码-疲劳检测识别,可应用于疲劳驾驶监测,专注度检测等(高分期末大作业).rar

    本项目提供了一个基于MATLAB的疲劳检测识别仿真系统,旨在帮助计算机相关专业的在校学生、老师和企业员工更好地学习和实践大数据与人工智能技术。该项目可应用于疲劳驾驶监测、专注度检测等领域,具有较高的实用价值。 项目源码已经过运行测试,确保OK,可作为课程设计、毕业设计的优质资源。此外,我们还为您提供了一些网络相关资源,以便您在学习过程中进行参考。这些资源将帮助您更好地理解项目的原理和应用。 本项目的源码适用于初学者,即使是编程基础较弱的同学也能快速上手。同时,源码结构清晰,易于理解和修改。您可以在这个基础上进行二次开发,实现更多有趣的功能。 请放心下载使用,我们为您提供了详细的文档说明,以便您更好地了解和使用该项目。希望这个项目能为您提供实质性的帮助,祝您在学习和工作中取得更好的成绩!

  • 利用协同过滤算法,基于用户历史订单数据,对店铺的用户和商品进行推荐.zip

    协同过滤算法(Collaborative Filtering)是一种经典的推荐算法,其基本原理是“协同大家的反馈、评价和意见,一起对海量的信息进行过滤,从中筛选出用户可能感兴趣的信息”。它主要依赖于用户和物品之间的行为关系进行推荐。 协同过滤算法主要分为两类: 基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于各种类型的数据。 算法简单易懂,容易实现和部署。 推荐结果准确性较高,能够为用户提供个性化的推荐服务。 然而,协同过滤算法也存在一些缺点: 对数据量和数据质量要求较高,需要大量的历史数据和较高的数据质量。 容易受到“冷启动”问题的影响,即对新用户或新商品的推荐效果较差。 存在“同质化”问题,即推荐结果容易出现重复或相似的情况。 协同过滤算法在多个场景中有广泛的应用,如电商推荐系统、社交网络推荐和视频推荐系统等。在这些场景中,协同过滤算法可以根据用户的历史行为数据,推荐与用户兴趣相似的商品、用户或内容,从而提高用户的购买转化率、活跃度和社交体验。 未来,协同过滤算法的发展方向可能是结合其他推荐算法形成混合推荐系统,以充分发挥各算法的优势。

  • 用C#实现人工智能中的八数码问题,有界面效果,可以得出结果,也可以逐步求解.zip

    用C#实现人工智能中的八数码问题,有界面效果,可以得出结果,也可以逐步求解.zip

Global site tag (gtag.js) - Google Analytics